필요 라이브러리 호출

전처리 함수 실행

histogram 과 boxplot을 통한 문장 길이 확인

정규화 방식 선정

형태소 분석기 비교

문서 분류

Frequency based Embedding(주파수 기반 임베딩)

주파수 기반 임베딩이란 단어가 나오는 횟수를 기준으로 인베딩을 하는 것이다. 횟수만 따진다는 것은 문맥을 따지지 않는다는 것을 의미한다. 즉, 간단한 자연어 처리에서는 많이 사용하지만, 정확한 예측은 힘들다는 것을 인지하자.

  1. 전처리 한글 제외 문자 제거
  2. spacing 라이브러리로 띄어쓰기 교정
  3. mecab nouns로 명사 추출
  4. tfidf
  5. t sne 차원축소
  6. k-means

Tf-idf 벡터화 파라미터

kkma_embed_2d, hannanum_embed_2d, komoran_embed_2d, mecab_embed_2d, okt_embed_2d

kkma_embed_2d

hannanum_embed_2d

komoran_embed_2d

mecab_embed_2d

okt_embed_2d


한 문장만 객체에 적용하여 최종 값인 벡터로 바뀐 값 확인

띄어쓰기 모두 없애기